Nous allons nous intéresser aux données du Vendée Globe 2020, la plus grande course autour du monde en solitaire et à la voile. Créée en 1989, cette course représente une prouesse technique pour les marins et leur bateau. La 9ème édition du Vendée Globe à démarrée des Sables d'Olonne le 8 Novembre 2020 et nous allons essayer d'analyser cette édition.
Cette analyse se fera sur les données AVANT l'arrivée des premiers voiliers.

Extraction et nettoyage des données du classement

Voici le code utilisé pour extaire les données directement depuis la page de classement du vendée globe :
https://www.vendeeglobe.org/fr/classement/20201108_120200

15906 lignes et 21 featues sur une plage de date du 08-11-2020 au 17-01-2021 (juste avant l'arrivée du premier skipper. Il ya 482 entrées pou chaque participant (482 fichiers récupérés)

Data Cleaning

Il y a 34 skipper différent d'apres notre dataframe, mais 33 sur le classement. 'Alex Thompson' apparait deux fois.

Cleaning des colonnes
On divise les colonnes avec plusieurs informations ('Skipper / Crew', 'Nat/Sail'), on transfome la colonne date en type 'Datetime' et on transforme les colonnes numériques en type float ou int.

Réorganisation des colonnes

Slicing des colonnes pou garder seulement les valeurs numériques

Etudes et remplacement des cellules NaN

On renseigne des valeurs par défaut pour les skippers sans information sur leur première ligne et on applique la méthode 'ffill' on prend par exemple les coordonnées des Sables-d'Olonne pour leur position de départ

RET = Rank de 34, ici le 34 est pris pour que le skipper qui a abandonner soit le dernier du classement, ex aequo avec les autres skippers ayant abandonnés

Je remplace les 'Heading' avec des NaN par 0

Je convertis toutes les colonnes numériques en float ou int

Fonction pour convertir les dms en dd prise sur : https://en.proft.me/2015/09/20/converting-latitude-and-longitude-decimal-values-p/

Convertion des Longitudes et Latitudes de dms à dd

Calul de la distance parourue pou chaque skipper

Ajout d'une colonne 'Day' correspondant au jour

Enegistrement dans un Excel

Extraction et nettoyage des données des voiliers

Nettoyage des valeurs

Merge des deux dataframes et enregistrement dans un fichier excel

Analyse des données

Affihage des trajectoires des difféents skippers

Nous pouvons commencer par afficher les trajets de chaque skipper

L'étude plus approfondie des trajetoires permet de mettre en évidence les passages difficiles de ce vendée globe. Sur le graphique si dessous nous pouvons voir un point (au sud de l'Afrique) ou a eu lieu la majorité des abandons. Il s'agit en effet d'un passage réputé pour être difficile à traverser, le cap de Bonne-Espérance.

Nou pouvons aussi mettre en évidence les sauvetages de certains Skippers comme ici, le sauvetage de Kevin Escoffier par Jean Le Cam

Le diagramme bar ci-dessus montre le classemen des Skipper au 27 janvier 2021 (juste avant l'arrivée du premier skipper) Le grphique ci-dessous est une animation de ce classement jour par jour. Il permet de suivre l'évolution du classement et des distances parcourues.

On peut y voir une chose assez étrange, le skipper "Fabrice Amedeo" passe de 24 nm à -2 nm. La distance parcourue est calculée en fonction de DTF (Distance to finish). Un distance parcourue négative peut donc s'expliquer par un passage à contre sens. Si nous egardons la trajectoire de Fabrice Amedeo au début du parcour nous voyons en effet qu'il a du retourner au point de départ.

Analyse Statistique

Dans las suite de cette analyse, nous allons essayer de mettre en évidence les caractéristiques des bateaux qui peuvent expliquer la différence de perfomance ente tous e Skipper. Nous allons nous concentrer sur la présence ou non de foils. Nous lon donc nou servir des données de la page: https://www.vendeeglobe.org/fr/glossaire que nous avons extrait au début.

On peut tout d'abord remarquer qu'il y a plus de bateau à foils qu'à dérives

En moyenne, les voiliers avec foils sont mieux classés que les voiliers à dérives.

Parmis les abandons, un seul est un bateau avec dérives et 7 (87%) sont avec foils.

Nous pouvons aussi étudier le differentes vitesse des ces bateaux voirs si le foil a un impact dessus.
Nous commençons par regarder la VMG_slrt « Velocity Made Good » , c'est à dire a combinaison de la vitesse du bateau sur l’eau ainsi que l’angle de remontée du bateau au vent. Elle permet de connaitre le meilleur rapport Vitesse/Angle de CAP pour atteindre un point.

Sur ce vendée globe, les voiliers à foils ont une VMG legèrement plus élevée que les bateaux à dérive.

Nous pouvons essayer de réaliser une régression linéaire entre le classement (rang) et la vitesse utile (VMG) des voiliers et ainsi pouvoir prédire un classement en fonction d'un vitesse moyenne et inversement.

Essayons quelques prédictions :

Pour la prédiction de 36 et -3 sont des classement qui n'existent pas dans notre cas. Il s'agit donc des places 33 (si il n'y a pas d'abandon) et 1.

Conclusion

En conclusion, nous pouvons bien evidemment noter des différences entre les voilier avec foils et avec dérives. Les voiliers avec foils sont en moyenne mieux classés, ont une meilleur VMG et ont parcourus en moyenne une plus grande distance.
Cependant ce sont aussi ceux qui ont le plus abandonné. Ceci peut s'expliquer notament par la pus grande présence de voiliers à foils mais aussi car l'utilisation d'un foil rend la traversée plus dangereuse.
Enfin, nus avons pu voir qu'il existait une correlation entre la VMG des voiliers et leur place dans la course ce qui explique le meilleur classement des voiliers à foils. Nous nous sommes seulement concentré sur l'influence des foils, afin de pousser plus loin l'analyse,il serait judicieux de regarder les autres specificités des voiliers ainsi que qu'ajouter des information sur les pilotes.